Unsupervised representation learning aims at describing raw data efficiently to solve various downstream tasks. It has been approached with many techniques, such as manifold learning, diffusion maps, or more recently self-supervised learning. Those techniques are arguably all based on the underlying assumption that target functions, associated with future downstream tasks, have low variations in densely populated regions of the input space. Unveiling minimal variations as a guiding principle behind unsupervised representation learning paves the way to better practical guidelines for self-supervised learning algorithms.
translated by 谷歌翻译
Deep Neural Networks (DNNs) outshine alternative function approximators in many settings thanks to their modularity in composing any desired differentiable operator. The formed parametrized functional is then tuned to solve a task at hand from simple gradient descent. This modularity comes at the cost of making strict enforcement of constraints on DNNs, e.g. from a priori knowledge of the task, or from desired physical properties, an open challenge. In this paper we propose the first provable affine constraint enforcement method for DNNs that requires minimal changes into a given DNN's forward-pass, that is computationally friendly, and that leaves the optimization of the DNN's parameter to be unconstrained i.e. standard gradient-based method can be employed. Our method does not require any sampling and provably ensures that the DNN fulfills the affine constraint on a given input space's region at any point during training, and testing. We coin this method POLICE, standing for Provably Optimal LInear Constraint Enforcement.
translated by 谷歌翻译
在现代深网(DNS)中,至关重要的,无处不在且知之甚少的成分是批处理(BN),它以特​​征图为中心并归一化。迄今为止,只有有限的进步才能理解为什么BN会提高DN学习和推理表现。工作专注于表明BN平滑DN的损失格局。在本文中,我们从函数近似的角度从理论上研究BN。我们利用这样一个事实,即当今最先进的DNS是连续的分段仿射(CPA),可以通过定义在输入空间的分区上定义的仿射映射来预测培训数据(所谓的“线性”区域”)。 {\ em我们证明了BN是一种无监督的学习技术,它独立于DN的权重或基于梯度的学习 - 适应DN的样条分区的几何形状以匹配数据。} BN提供了“智能初始化”,可提高“智能初始化” DN学习的性能,因为它甚至适应了以随机权重初始化的DN,以使其样条分区与数据保持一致。我们还表明,微型批次之间的BN统计数据的变化引入了辍学的随机扰动,以对分区边界,因此分类问题的决策边界。每次微型摄入扰动可通过增加训练样本和决策边界之间的边距来减少过度拟合并改善概括。
translated by 谷歌翻译
在本文中,我们研究了自我监督的学习方法,尤其是VICREG,以提供对其构建的信息理论理解。作为第一步,我们演示了如何获得确定性网络的信息理论数量,为依赖随机模型的先前工作提供了可能的替代方法。这使我们能够证明如何从第一原则及其对数据分布的假设中发现的(重新)。此外,我们从经验上证明了我们的假设的有效性,证实了我们对Vicreg的新理解。最后,我们认为,我们获得的派生和见解可以推广到许多其他SSL方法,为SSL和转移学习的理论和实际理解开辟了新的途径。
translated by 谷歌翻译
近年来出现的一种意外技术包括使用自我监督学习(SSL)方法培训深网(DN),并在下游任务上使用此网络,但其最后几层已完全删除。这种通常的脱脂技巧实际上对于SSL方法显示竞争性表演至关重要。例如,在成像网分类上,可以以这种方式获得超过30个百分比。这有点令人烦恼,因为人们希望在训练期间SSL标准明确执行不变性的网络层(最后一层)应该是用于下游最佳概括性能的一种。但这似乎并非如此,这项研究阐明了原因。我们将这种技巧称为断头台正则化(GR),实际上是一种普遍适用的正则化形式,也已用于改善转移学习方案中的泛化性能。在这项工作中,通过理论和实验,我们将GR形式化并确定其在SSL方法中成功背后的根本原因。我们的研究表明,这种技巧对于SSL的性能至关重要,原因有两个:(i)确定训练过程中使用的正面对的数据启发不当,和/或(ii)次优选择了该训练的超参数。 SSL损失。
translated by 谷歌翻译
自我监督的学习(SSL)推测,投入和成对的积极关系足以学习有意义的表示。尽管SSL最近达到了一个里程碑:在许多模式下,胜过监督的方法\点,理论基础是有限的,特定于方法的,并且未能向从业者提供原则上的设计指南。在本文中,我们提出了一个统一的框架,这些框架是在光谱歧管学习的掌舵下,以解决这些局限性。通过这项研究的过程,我们将严格证明Vic​​reg,Simclr,Barlowtwins等。对应于诸如Laplacian eigenmaps,多维缩放等方面的同名光谱方法。然后,此统一将使我们能够获得(i)每种方法的闭合形式的最佳表示,(ii)每种方法的线性态度中的封闭形式的最佳网络参数,(iii)在期间使用的成对关系的影响对每个数量和下游任务性能的培训,以及最重要的是,(iv)分别针对全球和局部光谱嵌入方法的对比度和非对抗性方法之间的第一个理论桥梁,暗示了每种方法的益处和限制。例如,(i)如果成对关系与下游任务一致,则可以成功采用任何SSL方法并将恢复监督方法,但是在低数据状态下,Vicreg的不变性超参数应该很高; (ii)如果成对关系与下游任务未对准,则与SIMCLR或BARLOWTWINS相比,具有小型不变性高参数的VICREG。
translated by 谷歌翻译
We develop new theoretical results on matrix perturbation to shed light on the impact of architecture on the performance of a deep network. In particular, we explain analytically what deep learning practitioners have long observed empirically: the parameters of some deep architectures (e.g., residual networks, ResNets, and Dense networks, DenseNets) are easier to optimize than others (e.g., convolutional networks, ConvNets). Building on our earlier work connecting deep networks with continuous piecewise-affine splines, we develop an exact local linear representation of a deep network layer for a family of modern deep networks that includes ConvNets at one end of a spectrum and ResNets, DenseNets, and other networks with skip connections at the other. For regression and classification tasks that optimize the squared-error loss, we show that the optimization loss surface of a modern deep network is piecewise quadratic in the parameters, with local shape governed by the singular values of a matrix that is a function of the local linear representation. We develop new perturbation results for how the singular values of matrices of this sort behave as we add a fraction of the identity and multiply by certain diagonal matrices. A direct application of our perturbation results explains analytically why a network with skip connections (such as a ResNet or DenseNet) is easier to optimize than a ConvNet: thanks to its more stable singular values and smaller condition number, the local loss surface of such a network is less erratic, less eccentric, and features local minima that are more accommodating to gradient-based optimization. Our results also shed new light on the impact of different nonlinear activation functions on a deep network's singular values, regardless of its architecture.
translated by 谷歌翻译
基于Centroid的聚类方法,例如K-均值,K-Medoids和K-Centers在探索性数据分析中被大量应用作为首选工具。在许多情况下,这些方法用于获得数据歧管的代表性质心,以可视化或摘要数据集。现实世界的数据集通常包含固有的异常情况,例如重复样本和采样偏见,表现出不平衡的聚类。我们建议通过对质心形成的群集引入最大半径约束$ r $来纠正这种情况,即,从同一集群中的样本则不应以$ \ ell_2 $距离的价格分开超过$ 2R $。我们通过求解半明确程序来实现此约束,然后是二次约束的线性分配问题。通过定性结果,我们表明我们提出的方法对数据集的不平衡和采样伪像是可靠的。据我们所知,我们的是第一个受到严格半径约束的约束K-均值聚类方法。 https://bit.ly/kmeans限制的代码
translated by 谷歌翻译
发现神经网络学到的内容仍然是一个挑战。在自我监督的学习中,分类是用于评估表示是多么常见的最常见任务。但是,只依赖于这样的下游任务可以限制我们对给定输入的表示中保留的信息量的理解。在这项工作中,我们展示了使用条件扩散的生成模型(RCDM)来可视化具有自我监督模型学习的表示。我们进一步展示了这种模型的发电质量如何与最先进的生成模型相符,同时忠于用作调节的代表性。通过使用这个新工具来分析自我监督模型,我们可以在视觉上显示i)SSL(骨干)表示并不是真正不变的,以便他们训练的许多数据增强。 ii)SSL投影仪嵌入出现太不变的任务,如分类。 III)SSL表示对其输入IV的小对抗扰动更稳健),具有可用于图像操作的SSL模型的固有结构。
translated by 谷歌翻译
在本文中,我们研究了在深网(DNS)中修剪的重要性,以及(1)修剪高度参数的DNS之间的Yin&Yang关系,这些DNS已从随机初始化训练,并且(2)培训“巧妙”的小型DNS,这些DNS已“巧妙”。初始化。在大多数情况下,从业者只能诉诸随机初始化,因此强烈需要对DN修剪建立扎实的理解。当前的文献在很大程度上仍然是经验的,缺乏对修剪如何影响DNS决策边界,如何解释修剪以及如何设计相应的原则修剪技术的理论理解。为了解决这些问题,我们建议在连续分段仿射(CPA)DNS的理论分析中采用最新进展。从这个角度来看,我们将能够检测到早期的鸟类(EB)票务现象,为当前的修剪技术提供可解释性,并制定有原则的修剪策略。在研究的每个步骤中,我们进行了广泛的实验,以支持我们的主张和结果;尽管我们的主要目标是增强对DN修剪的当前理解,而不是开发一种新的修剪方法,但我们的样条修剪标准在层和全球修剪方面与先进的修剪方法相当甚至超过了。
translated by 谷歌翻译